Loading...
机构名称:
¥ 1.0

本文介绍了IM,这是通过自动回归目标预先训练的视觉模型的集合。这些模型的灵感来自其文本对应物,即大型语言模型(LLMS),并显示出相似的缩放范围。具体来说,我们重点介绍了两个关键发现:(1)视觉特征的尺度具有模型容量和数据量,(2)Objective函数的值与下游任务上模型的性能相关。我们通过预先培训70亿个参数A IM对20亿张图像进行了培训来说明这些发现的实际含义,该参数在Imagenet-1K上具有冻结的躯干,在Imagenet-1K上实现了84.0%。有趣的是,即使在这个规模上,我们也没有观察到性能饱和的迹象,这表明IM可能代表了训练大规模视觉模型的新领域。IM的预训练与LLM的预培训相似,并且不需要任何特定图像的策略来稳定训练。

arxiv:2401.08541v1 [cs.cv] 2024年1月16日

arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第1页

arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第2页

arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第3页

arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第4页

arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第5页

相关文件推荐

2024 年
¥22.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2023 年
¥1.0